Título do plano de trabalho: Controle de qualidade dos dados da temperatura do ar, para as estações meteorológicas automáticas do INMET na região sul do Brasil
Nome do bolsista: Jonas Barboza Corrêa
Nome do orientador: Jônatan Dupont Tatsch
Local de execução: Laboratório de Hidrometeorologia (LHMet - UFSM)
As observações meteorológicas (e relacionadas ambientais e geofísicas) são feitas por uma variedade de razões. Eles são usados para a preparação em tempo real de análises meteorológicas, previsões e advertências meteorológicas severas, para o estudo do clima, para operações locais dependentes do clima (por exemplo, operações locais de vôo de aeródromo, trabalhos de construção em terra e no mar), para hidrologia e meteorologia agrícola, e para pesquisa em meteorologia e climatologia (WMO, 2012).
Nos últimos anos, a automação da estação e o aumento das velocidades de transmissão de dados estão em progresso constante. É necessário um controle de qualidade rápido e efetivo para identificação e sinalização de erros ou observações suspeitas para proporcionar acesso rápido à informação e disseminação de observações confiáveis quanto possível aos usuários. Geralmente, os objetivos para o desenvolvimento de sistemas de controle de qualidade são os seguintes: tornar o controle de qualidade mais eficaz e mais próximo do tempo real; identificar erros de calibração, medição e comunicação tão próximos da fonte de observação quanto possível; focar no desenvolvimento automático de algoritmos de controle de qualidade; desenvolver um sistema abrangente de sinalização para indicar o nível de qualidade dos dados; para facilitar aos usuários de dados identificar dados suspeitos e errados e destacar os valores corrigidos (VEJEN et al., 2002). Entre os principais tipos de erros, encontram-se os erros aleatórios, os erros sistemáticos, erros grandes e os erros micrometeorológicos.
Os erros aleatórios são distribuídos de forma mais ou menos simétrica em torno de zero e não dependem do valor medido. Erros aleatórios, por vezes, resultam em superestimação e às vezes em subestimação do valor real. Em média, os erros se cancelam mutuamente. Os erros sistemáticos, por outro lado, são distribuídos de forma assimétrica em torno de zero. Em média, esses erros tendem a polarizar o valor medido acima ou abaixo do valor real. Uma razão de erros aleatórios é uma deriva a longo prazo de sensores. Erros grandes (ásperos) são causados por mau funcionamento de dispositivos de medição ou por erros cometidos durante o processamento de dados; Os erros são facilmente detectados por cheques. Os erros micrometeorológicos (representatividade) são o resultado de perturbações em pequena escala ou sistemas meteorológicos que afetam a observação do tempo. Estes sistemas não são completamente observáveis pelo sistema de observação devido à resolução temporal ou espacial do sistema de observação. No entanto, quando tal fenômeno ocorre durante uma observação de rotina, os resultados podem parecer estranhos em comparação com as observações circundantes que ocorrem ao mesmo tempo (ZAHUMENSKÝ, 2004).
No Brasil, os dados fornecidos, em sua maioria, encontram-se em sua forma bruta, sem que a qualidade dos mesmos seja verificada. Este trabalho consiste em, através da aplicação de certos métodos de controle de qualidade (QC), verificar e rotular tais dados como suspeitos ou não, para que futuramente possam serem melhores aproveitados em seu uso, com um maior grau de confiabilidade.
A metodologia adotada consiste em duas partes, inicialmente os dados brutos passarão por uma seleção inicial baseada em certos fatores, em seguida, eles serão submetidos à uma série de testes de controle de qualidade, que os qualificarão como suspeitos ou não, além, de obter-se certas informações relevantes a respeito deles.
Neste trabalho, serão usados dados horários da Temperatura do Ar (Tar) de 91 Estações Meteorológicas Automáticas (EMAs) do Instituto Nacional de Meteorologia (INMET), localizadas na região sul do Brasil (Figura 01a). Ao todo, os estados do Paraná (PR), Rio Grande do Sul (RS) e Santa Catarina (SC), possuem, respectivamente, 27, 42 e 22 EMAs em funcionamento, tendo períodos de funcionamento que variam de pouco mais de um mês (A897 - Cambará do Sul), até mais de 16 anos (A801 - Porto Alegre) (Figura 01b). Os dados horários de Tar utilizados estão no padrão do Tempo Universal Coordenado (UTC).
O modelo dos sensores de temperatura usado é o QMH102 da fabricante Vaisala, estes possuem acurácia de ±0,2°C, e são instalados a uma altura de 2 metros acima do solo (VAISALA, 2002). Uma estação meteorológica automática (EMA) deve ser instalada em uma área gramada fechada com um cercado de tela metálica de 14m x 18m e um mínimo de \(50m^2\) livre de efeitos de construções ao seu redor e protegida contra roubo e vandalismos (INMET, 2011).
Figura 01 – (a) Localização das 91 EMAs do INMET no sul do Brasil, (b) Período de dados das 91 EMAs em anos.
Dois critérios serão usados para a seleção dos dados que serão utilizados, (i) as estações meteorológicas automáticas devem terem no mínimo quatro anos de dados (podendo serem descontínuos), para haver um tempo mínimo para análise ser consistente, e (ii) o período de análise terá início em 01/01/2008, tendo como data final 31/12/2016. Este ano inicial foi escolhido, pois a partir dele notou-se um bom acrescimo na quantidade de EMAs existente (Figura 02), além de que, a distribuição espacial delas tornou-se mais homogênea (Figura 03 e Figura 04).
Figura 02 – EMAs com início de funcionamento pré-pós 2008
Figura 03 – Disponibilidade mensal para cada uma das 91 EMA da região sul do Brasil.
Figura 04 – Evolução temporal mensal do número de EMAs.
Para que a seleção fosse feita, antes, foi necessário uma regularização das séries temporais de cada EMA, para assim garantir que todas tenham 24 horas em cada dia, e 365 (ou 366 dias, se ano bissexto) em cada ano.
Após a seleção, restaram ao todo 80 EMAs para análise, estando 24 localizadas no estado do Paraná (PR), 36 no estado do Rio Grande do Sul (RS) e 20 no estado de Santa Catarina (SC), com disponibilidade de dados variando de 41,5% (A883 - Ibirubá) até 99,4 (A803 - Porto Alegre) (Figura 05). Na Tabela 01 é mostrado as EMAs selecionadas que apresentaram o maior período de dados.
Figura 05 – Disponibilidade das 80 EMAs selecionadas do período de 2008 até 2016
Tabela 01 – Informações sobre as EMAs: Início de Funcionamento, Período, Latitude, Longitude, Altitude.
Para a realização deste trabalho, foi utilizado a linguagem de programação R (R Core Team, 2017), com o software livre com ambiente de desenvolvimento integrado Rstudio (RStudio Team, 2016), e os seguintes pacotes foram utilizados:
dplyr (WICKHAM, 2017), DT (XIE, 2016), ggplot2 (WICKHAM, 2016), kableExtra (ZHU, 2017), knitr (XIE, 2017), lubridate (GROLEMUND, 2016), magrittr (BACHE; WICKHAM, 2014), openair (CARSLAW; ROPKINS, 2017), padr (THOEN, 2017), plyr (WICKHAM, 2016), raster (HIJMANS, 2016), scales (WICKHAM, 2017), stringr (WICKHAM, 2017), tidyverse (WICKHAM, 2017).
Os testes aplicados aos dados da temperatura do ar serão dividos em categorias, sendo elas: Limites do Intervalo de Variação, Persistência Temporal, Consistência Interna, Consistência Temporal, Consistência Espacial e Homogeneidade Temporal. Eles são mostrados na Tabela 02, e os dados foram considerados suspeitos quando os testes são válidos.
Tabela 02 – Controles de qualidade (QCs) aplicados aos dados da temperatura do ar das EMAs do INMET
| Processo de Validação | Temperatura do Ar (em °C) | Referências |
|---|---|---|
| (QC1) Teste do Intervalo de Variação | \((a)\) \(T_{avg}\) < \(-50°C\) ou \(T_{avg}\) > \(60°C\) | (ESTÉVEZ el al., 2011) |
| \((b)\) \(T_{avg}\) < \(T_{low}\) ou \(T_{avg}\) > \(T_{high}\) | (ESTÉVEZ el al., 2011) | |
| (QC2) Teste de Persistência Temporal | \((a)\) \(T_{avg} (h)\) = \(T_{avg} (h-1)\) = \(T_{avg} (h-2)\) = … = \(T_{avg} (h-n)\) | (MEEK; HATFIELD, 1994) |
| (QC3) Teste de Consistência Interna | \((a)\) \(T_{min}(h)\) ≥ \(T_{max}(h)\) | (ESTÉVEZ el al., 2011) |
| \((b)\) \(T_{inst}(h)\) < \(T_{min}(h)\) ou \(T_{inst}(h)\) > \(T_{max}(h)\) | ||
| \((c)\) \(T_{avg}(h)\) < \(T_{davg,f}(h)\) | ||
| \((d)\) \(T_{avg}(d)\) < \(T_{min}(d)\) ou \(T_{avg}(d)\) > \(T_{max}(d)\) | (MEEK; HATFIELD, 1994) | |
| \((e)\) \(T_{max}(d)\) < \(T_{min}(d-1)\) | (ESTÉVEZ el al., 2011) | |
| \((f)\) \(T_{min}(d)\) ≥ \(T_{max}(d-1)\) | (ESTÉVEZ el al., 2011) | |
| (QC4) Teste de Consistência Temporal | \((a)\) \(|T_{avg}(h)\) - \(T_{avg}(h-dt)|\) > \(T_{tol} (dt)\) | (WMO, 1993) |
Nota: \(T_{avg}(h)\) é a média aritmética simples de \(T_{min}(h)\) (temperatura mínima do ar) e \(T_{max}(h)\) (temperatura máxima do ar); \(-50°C\) e \(60°C\) são, respectivamente, os limites mínimo e máximo instrumental; \(T_{low}\) e \(T_{high}\) são, respectivamente, os valores mínimo e máximo já registrados pela estação climatológica mais próxima de cada EMA; \(n\) é um número natural, correspondente à(s) hora(s) anteriores à \(T_{avg} (h)\); \(T_{min}(h)\) e \(T_{max}(h)\) são, respectivamente, os valores mínimo e máximo horário de temperatura; \(T_{inst}(h)\) é a temperatura instantânea do ar, que corresponde à média de um minuto de 12 valores de amostragens medidos a cada cinco segundos; \(T_{davg,f}(h)\) é a temperatura média do ponto de orvalho, filtrada apenas com dados que passaram nos testes ‘a’ e ‘b’ do QC3, aplicados para a variável \(T_{davg}(h)\) (temperatura média do ponto de orvalho horária); \(T_{avg}(d)\) é média aritmética simples das \(T_{avg}(h)\); \(T_{min}(d)\) é o menor valor de temperatura registrada no dia das \(T_{min}(h)\); \(T_{max}(d)\) é o maior valor de temperatura registrada no dia das \(T_{max}(h)\); \(T_{min}(d-1)\) é a temperatura mínima do dia anterior; \(T_{max}(d-1)\) é a temperatura máxima do dia anterior; \(dt\) são valores correspondentes a uma determinada hora, sendo eles: 1h, 2h, 3h, 6h e 12h; \(T_{tol} (dt)\) é um valor tolerável de temperatura, que varia com \(dt\), recebendo os seguintes valores respectivos: 4°C (1h), 7°C (2h), 9°C (3h), 15°C (6h) e 25°C (12h).
(a) A aplicação do teste de Limites do Intervalo de Variação ‘a’ nas 80 EMAs selecionadas, não gerou nenhuma EMA que apresentou dados considerados suspeitos.
(b) A aplicação do teste de Limites do Intervalo de Variação ‘b’ nas 80 EMAs selecionadas, gerou 66 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.1006% (79 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A845 – Morro Da Igreja/Bom Jardim Da Serra (SC), com 2.1872% (1726 horas) (Tabela 03).
Tabela 03 – EMAs com maior número de dados considerados suspeitos no teste QC1b em ordem decrescente.
## # A tibble: 66 x 5
## Código Estado Nome `Dados Suspeitos (em… `Dados Suspeitos …
## <chr> <ord> <chr> <int> <dbl>
## 1 A845 SC Morro Da Igreja … 1726 2.19
## 2 A851 SC Itapoá 402 0.509
## 3 A820 PR Marechal Cândido… 354 0.449
## 4 A850 PR Paranapoema 337 0.427
## 5 A882 RS Teutônia 306 0.388
## 6 A869 PR Cidade Gaúcha 229 0.290
## 7 A849 PR Diamante Do Norte 183 0.232
## 8 A843 PR Dois Vizinhos 136 0.172
## 9 A831 RS Quaraí 122 0.155
## 10 A802 RS Rio Grande 109 0.138
## # … with 56 more rows
Figura 06 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC1b.
(a) A aplicação do teste de Persistência Temporal ‘a’ nas 80 EMAs selecionadas, gerou 80 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 4.6418% (3663 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A834 – Tramandaí (RS), com 9.446% (7454 horas) (Tabela 04).
Tabela 04 – EMAs com maior número de dados considerados suspeitos no teste QC2a em ordem decrescente.
## # A tibble: 80 x 5
## Código Estado Nome `Dados Suspeitos (em… `Dados Suspeitos …
## <chr> <ord> <chr> <int> <dbl>
## 1 A834 RS Tramandaí 7454 9.45
## 2 A878 RS Mostardas 7028 8.91
## 3 A866 SC Laguna (Farol Sa… 6933 8.79
## 4 A845 SC Morro Da Igreja … 5604 7.10
## 5 A873 PR Morretes 5590 7.08
## 6 A817 SC Indaial 5459 6.92
## 7 A808 RS Torres 5437 6.89
## 8 A899 RS Santa Vitória Do… 5180 6.56
## 9 A806 SC Florianópolis-Sã… 5142 6.52
## 10 A851 SC Itapoá 5088 6.45
## # … with 70 more rows
Figura 07 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC2a.
(a) A aplicação do teste de Consistência Interna ‘a’ nas 80 EMAs selecionadas, gerou 80 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.1511% (119 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A851 – Itapoá (SC), com 0.6818% (538 horas) (Tabela 05).
Tabela 05 – EMAs com maior número de dados considerados suspeitos no teste QC3a em ordem decrescente.
## # A tibble: 80 x 5
## Código Estado Nome `Dados Suspeitos (em hor… `Dados Suspeitos (em…
## <chr> <ord> <chr> <int> <dbl>
## 1 A851 SC Itapoá 538 0.682
## 2 A862 SC Rio Negri… 389 0.493
## 3 A867 SC Araranguá 328 0.416
## 4 A803 RS Santa Mar… 272 0.345
## 5 A811 RS Canguçu 271 0.343
## 6 A834 RS Tramandaí 255 0.323
## 7 A817 SC Indaial 240 0.304
## 8 A819 PR Castro 240 0.304
## 9 A864 SC Major Vie… 234 0.296
## 10 A838 RS Camaquã 214 0.271
## # … with 70 more rows
Figura 08 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3a.
(b) A aplicação do teste de Consistência Interna ‘b’ nas 80 EMAs selecionadas, gerou 12 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.0062% (5 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A880 – Vacaria (RS), com 0.0558% (44 horas) (Tabela 06).
Tabela 06 – EMAs com maior número de dados considerados suspeitos no teste QC3b em ordem decrescente.
## # A tibble: 12 x 5
## Código Estado Nome `Dados Suspeitos (em … `Dados Suspeitos (e…
## <chr> <ord> <chr> <int> <dbl>
## 1 A880 RS Vacaria 44 0.0558
## 2 A801 RS Porto Alegre 3 0.0038
## 3 A811 RS Canguçu 2 0.0025
## 4 A812 RS Caçapava Do S… 1 0.0013
## 5 A814 SC Urussanga 1 0.0013
## 6 A820 PR Marechal Când… 1 0.0013
## 7 A821 PR Joaquim Távora 1 0.0013
## 8 A846 PR Foz Do Iguaçu 1 0.0013
## 9 A847 PR Ilha Do Mel 1 0.0013
## 10 A858 SC Xanxerê 1 0.0013
## 11 A864 SC Major Vieira 1 0.0013
## 12 A869 PR Cidade Gaúcha 1 0.0013
Figura 09 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3b.
(c) A aplicação do teste de Consistência Interna ‘c’ nas 80 EMAs selecionadas, gerou 45 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.0769% (61 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A845 – Morro Da Igreja (Bom Jardim Da Serra) (SC), com 1.0657% (841 horas) (Tabela 07).
Tabela 07 – EMAs com maior número de dados considerados suspeitos no teste QC3c em ordem decrescente.
## # A tibble: 45 x 5
## Código Estado Nome `Dados Suspeitos (em… `Dados Suspeitos …
## <chr> <ord> <chr> <int> <dbl>
## 1 A845 SC Morro Da Igreja … 841 1.07
## 2 A811 RS Canguçu 309 0.392
## 3 A809 RS Uruguaiana 241 0.305
## 4 A812 RS Caçapava Do Sul 208 0.264
## 5 A847 PR Ilha Do Mel 137 0.174
## 6 A880 RS Vacaria 122 0.155
## 7 A813 RS Rio Pardo 104 0.132
## 8 A857 SC São Miguel Do Oe… 102 0.129
## 9 A835 PR Maringá 87 0.110
## 10 A803 RS Santa Maria 71 0.09
## # … with 35 more rows
Figura 10 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3c.
(d) A aplicação do teste de Consistência Interna “d” nas 80 EMAs selecionadas, não gerou nenhuma EMA que apresentou dados considerados suspeitos.
(e) A aplicação do teste de Consistência Interna ‘e’ nas 80 EMAs selecionadas, gerou 57 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.135% (4 dias), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A807 – Curitiba (PR), com 0.6083% (20 dias) (Tabela 08).
Tabela 08 – EMAs com maior número de dados considerados suspeitos no teste QC3e em ordem decrescente.
## # A tibble: 57 x 5
## Código Estado Nome `Dados Suspeitos (em … `Dados Suspeitos (…
## <chr> <ord> <chr> <int> <dbl>
## 1 A807 PR Curitiba 20 0.608
## 2 A824 PR Icaraíma 12 0.365
## 3 A828 RS Erechim 11 0.334
## 4 A823 PR Inácio Martins 9 0.274
## 5 A851 SC Itapoá 9 0.274
## 6 A866 SC Laguna (Farol … 9 0.274
## 7 A810 RS Santa Rosa 8 0.243
## 8 A835 PR Maringá 8 0.243
## 9 A825 PR Goioere 7 0.213
## 10 A831 RS Quaraí 7 0.213
## # … with 47 more rows
Figura 11 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3e.
(f) A aplicação do teste de Consistência Interna ‘f’ nas 80 EMAs selecionadas, gerou 69 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.0908% (3 dias), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A851 – Itapoá (SC), com 0.3954% (13 dias) (Tabela 09).
Tabela 09 – EMAs com maior número de dados considerados suspeitos no teste QC3f em ordem decrescente.
## # A tibble: 69 x 5
## Código Estado Nome `Dados Suspeitos (em d… `Dados Suspeitos (em…
## <chr> <ord> <chr> <int> <dbl>
## 1 A851 SC Itapoá 13 0.395
## 2 A842 PR Nova Fátima 9 0.274
## 3 A863 SC Ituporanga 9 0.274
## 4 A807 PR Curitiba 7 0.213
## 5 A823 PR Inácio Mart… 7 0.213
## 6 A824 PR Icaraíma 7 0.213
## 7 A838 RS Camaquã 7 0.213
## 8 A878 RS Mostardas 7 0.213
## 9 A833 RS Santiago 6 0.182
## 10 A873 PR Morretes 6 0.182
## # … with 59 more rows
Figura 12 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3f.
(a) Este controle de qualidade é divido em partes, de acordo com a variação horária da temperatura.
Tabela 10 – EMAs com maior número de dados considerados suspeitos no teste QC4a (1h) em ordem decrescente.
## # A tibble: 80 x 5
## Código Estado Nome `Dados Suspeitos (em h… `Dados Suspeitos (e…
## <chr> <ord> <chr> <int> <dbl>
## 1 A875 PR General Carn… 1600 2.03
## 2 A874 PR São Mateus D… 866 1.10
## 3 A819 PR Castro 768 0.973
## 4 A831 RS Quaraí 712 0.902
## 5 A821 PR Joaquim Távo… 693 0.878
## 6 A859 SC Caçador 482 0.611
## 7 A862 SC Rio Negrinho 441 0.559
## 8 A810 RS Santa Rosa 416 0.527
## 9 A814 SC Urussanga 391 0.496
## 10 A850 PR Paranapoema 338 0.428
## # … with 70 more rows
Figura 13 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (1h).
Tabela 11 – EMAs com maior número de dados considerados suspeitos no teste QC4a (2h) em ordem decrescente.
## # A tibble: 80 x 5
## Código Estado Nome `Dados Suspeitos (em h… `Dados Suspeitos (e…
## <chr> <ord> <chr> <int> <dbl>
## 1 A875 PR General Carn… 1960 2.48
## 2 A874 PR São Mateus D… 1058 1.34
## 3 A819 PR Castro 985 1.25
## 4 A831 RS Quaraí 981 1.24
## 5 A821 PR Joaquim Távo… 840 1.06
## 6 A859 SC Caçador 625 0.792
## 7 A862 SC Rio Negrinho 583 0.739
## 8 A814 SC Urussanga 532 0.674
## 9 A810 RS Santa Rosa 519 0.658
## 10 A864 SC Major Vieira 443 0.561
## # … with 70 more rows
Figura 14 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (2h).
Tabela 12 – EMAs com maior número de dados considerados suspeitos no teste QC4a (3h) em ordem decrescente.
## # A tibble: 80 x 5
## Código Estado Nome `Dados Suspeitos (em h… `Dados Suspeitos (e…
## <chr> <ord> <chr> <int> <dbl>
## 1 A875 PR General Carn… 2469 3.13
## 2 A831 RS Quaraí 1399 1.77
## 3 A874 PR São Mateus D… 1317 1.67
## 4 A819 PR Castro 1244 1.58
## 5 A821 PR Joaquim Távo… 1043 1.32
## 6 A859 SC Caçador 900 1.14
## 7 A862 SC Rio Negrinho 805 1.02
## 8 A814 SC Urussanga 753 0.954
## 9 A810 RS Santa Rosa 706 0.895
## 10 A850 PR Paranapoema 602 0.763
## # … with 70 more rows
Figura 15 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (3h).
Tabela 13 – EMAs com maior número de dados considerados suspeitos no teste QC4a (6h) em ordem decrescente.
## # A tibble: 72 x 5
## Código Estado Nome `Dados Suspeitos (em h… `Dados Suspeitos (e…
## <chr> <ord> <chr> <int> <dbl>
## 1 A875 PR General Carn… 1324 1.68
## 2 A819 PR Castro 727 0.921
## 3 A831 RS Quaraí 666 0.844
## 4 A874 PR São Mateus D… 633 0.802
## 5 A821 PR Joaquim Távo… 565 0.716
## 6 A859 SC Caçador 443 0.561
## 7 A862 SC Rio Negrinho 364 0.461
## 8 A850 PR Paranapoema 340 0.431
## 9 A864 SC Major Vieira 340 0.431
## 10 A810 RS Santa Rosa 284 0.360
## # … with 62 more rows
Figura 16 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (12h).
Tabela 14 – EMAs com maior número de dados considerados suspeitos no teste QC4a (3h) em ordem decrescente.
## # A tibble: 1 x 5
## Código Estado Nome `Dados Suspeitos (em h… `Dados Suspeitos (em…
## <chr> <ord> <chr> <int> <dbl>
## 1 A875 PR General Carn… 1 0.0013
(b) Valente & Tatsch
Tabela 15 – Total absoluto de dados considerados suspeitos em cada EMA.
Nota: * total de dados horários suspeitos detectados nos testes qc1a, qc1b, qc2a, qc3a, qc3b, qc3c e qc4a (1h, 2h, 3h, 6h e 12h); ** total de dados diários suspeitos detectados nos testes qc3d, qc3e e qc3f.
Figura 17 – Distribuição espacial das EMAs com maior quantidade absoluta de dados (a) horários e (b) diários considerados suspeitos
Tabela 16 – Total absoluto de dados considerados suspeitos em cada teste.
## QC tipo Total de dados Suspeitos Suspeitos (em %)
## 1 2a h 6312960 293032 4.6417528
## 2 4a_03h h 6312960 23780 0.3766854
## 3 4a_02h h 6312960 19124 0.3029324
## 4 4a_01h h 6312960 17079 0.2705387
## 5 3a h 6312960 9536 0.1510543
## 6 4a_06h h 6312960 8739 0.1384295
## 7 1b h 6312960 5239 0.0829880
## 8 3c h 6312960 2730 0.0432444
## 9 3b h 6312960 58 0.0009187
## 10 4a_12h h 6312960 1 0.0000158
## 11 1a h 6312960 0 0.0000000
## QC tipo Total de dados Suspeitos Suspeitos (em %)
## 1 3e d 263040 253 0.0961831
## 2 3f d 263040 206 0.0783151
## 3 3d d 263040 0 0.0000000
Tabela 17 – Total absoluto de dados horários e diários considerados suspeitos por estado
Nota: * total de dados horários suspeitos detectados nos testes qc1a, qc1b, qc2a, qc3a, qc3b, qc3c e qc4a (1h, 2h, 3h, 6h e 12h); ** total de dados diários suspeitos detectados nos testes qc3d, qc3e e qc3f.
Somando os resultados dos testes, as estações que apresentaram o maior número de dados suspeitos nos testes horários foram: A875 – General Carneiro (PR) com 10895 horas, A845 – Morro Da Igreja/Bom Jardim da Serra (SC) com 8461 horas e A834 – Tramandaí (RS) com 7820 horas; nos testes diários foram: A807 – Curitiba (PR) com 27 dias, A851 – Italpóa (SC) com 22 dias e A824 – Icaraíma (PR) com 19 dias.
No geral, embora a maioria da estações meteorológicas automáticas tenham apresentado ao mínimo um teste onde foram detectados dados suspeitos, a porcentagem de dados suspeitos detectada em cada estação, em relação ao número total de horas de dados na mesma, é suficientemente pequeno.
Carslaw, D. C. and K. Ropkins, (2012) openair — an R package for air quality data analysis. Environmental Modelling & Software. Volume 27-28, 52-61. https://cran.r-project.org/web/packages/openair/index.html
Edwin Thoen (2017). padr: Quickly Get Datetime Data Ready for Analysis. R package version 0.3.0. https://CRAN.R-project.org/package=padr
ESTÉVEZ, J. et al. Guidelines on validation procedures for meteorological data from automatic weather stations. Journal of Hydrology, p. 147, 2011. https://www.sciencedirect.com/science/article/pii/S0022169411001594
Garrett Grolemund, Hadley Wickham (2011). Dates and Times Made Easy with lubridate. Journal of Statistical Software, 40(3), 1-25. URL http://www.jstatsoft.org/v40/i03/.
Hadley Wickham, Romain Francois, Lionel Henry and Kirill Müller (2017). dplyr: A Grammar of Data Manipulation. R package version 0.7.4. https://CRAN.R-project.org/package=dplyr
H. Wickham. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2009 https://cran.r-project.org/web/packages/ggplot2/index.html
Hadley Wickham (2017). scales: Scale Functions for Visualization. R package version 0.5.0. https://CRAN.R-project.org/package=scales
Hadley Wickham (2017). stringr: Simple, Consistent Wrappers for Common String Operations. R package version 1.2.0. https://CRAN.R-project.org/package=stringr
Hadley Wickham (2017). tidyverse: Easily Install and Load ‘Tidyverse’ Packages. R package version 1.1.1. https://CRAN.R-project.org/package=tidyverse
Hadley Wickham (2011). The Split-Apply-Combine Strategy for Data Analysis. Journal of Statistical Software, 40(1), 1-29. URL http://www.jstatsoft.org/v40/i01/.
Hao Zhu (2017). kableExtra: Construct Complex Table with ‘kable’ and Pipe Syntax. R package version 0.5.2. https://CRAN.R-project.org/package=kableExtra
INMET. Rede de Estações Meteorológicas Automáticas do INMET. NOTA TÉCNICA No. 001/2011/SEGER/LAIME/CSC/INMET, p. 4, 2011. http://www.inmet.gov.br/portal/css/content/topo_iframe/pdf/Nota_Tecnica-Rede_estacoes_INMET.pdf
MEEK, D. W.; HATFIELD, J. L. Data quality checking for single station meteorological databases. Agricultural and Forest Meteorology, p. 90-91, 1994. https://ac.els-cdn.com/0168192394900833/1-s2.0-0168192394900833-main.pdf?_tid=868c718a-0b8d-11e8-8581-00000aab0f26&acdnat=1517956491_41a505ab0f4dff5b801e7e33aab57b66
R Core Team (2017). R: A language and environment for statistical computing.** R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
RStudio Team (2016). RStudio: Integrated Development for R. RStudio, Inc., Boston, MA. http://www.rstudio.com/
Robert J. Hijmans (2016). raster: Geographic Data Analysis and Modeling. R package version 2.5-8. https://CRAN.R-project.org/package=raster
Stefan Milton Bache and Hadley Wickham (2014). magrittr: A Forward-Pipe Operator for R. R package version 1.5. https://CRAN.R-project.org/package=magrittr
VAISALA. Automatic Weather Station MAWS301 INSTALLATION MANUAL. p. 66, 2002. http://www.eso.org/gen-fac/pubs/astclim/lachira/docs/Vaisala/User%20Guides/M010114en-B.pdf
VEJEN et al. Quality control of meteorological observations: Automatic Methods Used in the Nordic Countries. Norwegian Meteorological Institute, p. 11, 2002. https://pdfs.semanticscholar.org/a0cf/7f5585c0cacee67e72d5583fc1a1d1f4de25.pdf?_ga=2.65464238.1806094589.1521820545-91514076.1517953769
WMO. GUIDE ON THE GLOBAL DATA-PROCESSING SYSTEM, p. VI.21, 1993. https://library.wmo.int/pmb_ged/wmo_305_en.pdf
WMO. Guide to Meteorological Instruments and Methods of Observation, p. 1, 2012. https://library.wmo.int/pmb_ged/wmo_8_en-2012.pdf
Yihui Xie (2016). DT: A Wrapper of the JavaScript Library ‘DataTables’. R package version 0.2. https://CRAN.R-project.org/package=DT
Yihui Xie (2017). knitr: A General-Purpose Package for Dynamic Report Generation in R. R package version 1.17. https://cran.r-project.org/web/packages/knitr/index.html
ZAHUMENSKÝ, I. Guidelines on Quality Control Procedures for Data from Automatic Weather Stations. World Meteorological Organization, p. 3-4, 2004. https://www.wmo.int/pages/prog/www/IMOP/meetings/Surface/ET-STMT1_Geneva2004/Doc6.1(2).pdf